{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "文本预处理，将所有训练数据合并成一个文件，去掉标点，停词"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import re,os\n",
    "import numpy as np\n",
    "import pandas as pd\n",
    "import jieba\n",
    "np.random.seed(42)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "INPUT_PATH = '../input/'\n",
    "CACHE_PATH = '../cache/'\n",
    "OUTPUT_PATH ='../output'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 读取数据\n",
    "df_train_first = pd.read_csv(CACHE_PATH + 'df_simple_train.csv')\n",
    "df_predict_first = pd.read_csv(INPUT_PATH + 'predict_first.csv')\n",
    "df_predict_second = pd.read_csv(INPUT_PATH + 'predict_second.csv')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 合并数据\n",
    "df_train = pd.concat([df_train_first,df_predict_first],axis=0,ignore_index=True)\n",
    "df_predict = df_predict_second.copy()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 预处理单个词\n",
    "def preprocess_word(word):\n",
    "    # 去掉标点\n",
    "    word = word.strip('\\'\"?!,.():;？！，。…“”（）：；<>《》/ 、rn【】[]|~#%&*br')\n",
    "    # 去掉 - &\n",
    "    word = re.sub(r'(-|\\')', '', word)\n",
    "    \n",
    "    return word"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 预处理句子\n",
    "def preprocess_sentence(sentence, stop_words=False):\n",
    "    sentence = sentence.lower()\n",
    "    # 转化URL\n",
    "    sentence = re.sub(r'((www\\.[\\S]+)|(https?://[\\S]+))', ' URL ', sentence)\n",
    "    # 去掉空白，单双引号\n",
    "    sentence = sentence.strip(' \"\\'')\n",
    "    # 分词\n",
    "    words = jieba.cut(sentence)\n",
    "    # 分别处理每一个单词\n",
    "    sentence = []\n",
    "    for word in words:\n",
    "        word = preprocess_word(word)\n",
    "        if len(word) > 0:\n",
    "            sentence.append(word)\n",
    "    if len(sentence) == 0:\n",
    "        return ' '.join(list('很好'))\n",
    "    else:\n",
    "        return ' '.join(sentence)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 拷贝数据\n",
    "df_train_processed = df_train.copy()\n",
    "df_predict_processed = df_predict.copy()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "Building prefix dict from the default dictionary ...\n",
      "Dumping model to file cache /tmp/jieba.cache\n",
      "Loading model cost 0.868 seconds.\n",
      "Prefix dict has been built succesfully.\n"
     ]
    }
   ],
   "source": [
    "# 预处理文本\n",
    "df_train_processed['Discuss'] = df_train['Discuss'].map(preprocess_sentence)\n",
    "df_predict_processed['Discuss'] = df_predict['Discuss'].map(preprocess_sentence)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Discuss</th>\n",
       "      <th>Id</th>\n",
       "      <th>Score</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>脏乱差 严重 堵车 垃圾 遍地 漫天要价</td>\n",
       "      <td>2c767dd0-8536-38c6-a41e-2f70a4a64923</td>\n",
       "      <td>1.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>非常 差 在 景区 门口 刷不出 身份证 卖家 不 找 自身 的 问题 还 说 我们 当时 ...</td>\n",
       "      <td>b6ff2819-b97a-3d5c-9b93-5efc234a574d</td>\n",
       "      <td>1.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>会 后悔</td>\n",
       "      <td>7ed145e9-4c85-323e-8d26-c4cd18105d26</td>\n",
       "      <td>1.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>好好 好好 好好 好好 好好 好好 好好 好好</td>\n",
       "      <td>493a99b7-f80c-30c9-876c-d9db174d9688</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>普达措 国家 公园 　 　 其实 第三段 可以 选择 坐船 或者 步行 的 这段 路程 并 ...</td>\n",
       "      <td>80567e00-dc5a-3426-8149-342dccd8b93e</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>可 在 上面 拍拍 照 感觉 很 不错 还有 就是 菽庄花园 旁边 的 沙滩 也 不错 哦 ...</td>\n",
       "      <td>9808082d-9a62-36ac-a6d1-56387d428b84</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>玩 了 一个 白天 略 吵吵 囔囔 人 很多 无感</td>\n",
       "      <td>b626d8e8-9d6c-35af-89c8-12c75ebe910b</td>\n",
       "      <td>3.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>带 宝宝 出去玩</td>\n",
       "      <td>420ddfbb-4439-3b59-a5f5-845ef8df0f95</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>是 两个 90 度 垂直 的 竖梯 爬 上 山顶 的 岩石 高处 风光 独好 就是 注意安全 哦</td>\n",
       "      <td>f6271d92-fe80-3884-9123-6db6eb64a739</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>当 雷峰塔 有 了 电梯 不伦不类 的 感觉 实在 是 让 人 感觉不好 完全 的 新 样式...</td>\n",
       "      <td>6c87907a-89e1-353d-bdf6-72c13af0221c</td>\n",
       "      <td>2.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>漫步 白堤 悠闲自得 真是 一处 好去处</td>\n",
       "      <td>e86caac1-dc58-34a3-8bfa-b099c57937c3</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>走 在 北京 的 老 胡同 了 才 是 真正 的 京味</td>\n",
       "      <td>418b19cb-3ad3-36bc-875f-f22ffa1a86cc</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>还 不错 的 地方 值得 一去 适合 旅游 不要 错过 哦</td>\n",
       "      <td>00855029-ef19-3aff-bbd1-b0f2d311a116</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>真心 不错</td>\n",
       "      <td>4ee54b69-15c2-3152-903b-4e8e56edd86f</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>很 不错</td>\n",
       "      <td>21ab5fca-8427-3fbd-abbd-3568a9407409</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>去 的 时候 碰上 云海 简直 就是 人间仙境 值得 一去</td>\n",
       "      <td>67bf89fc-6123-3e57-b041-c1ebeb91ae36</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>进去 之后 就是 感觉 吸氧 一样 空气 特 好 天特 蓝 还有 随处可见 的 肥 猴子 小...</td>\n",
       "      <td>7e5e53fc-7e9c-38ed-b878-13b6157e592c</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>拍摄 故宫 的 经典 位置 还是 不错 的</td>\n",
       "      <td>949cc770-2449-3593-a6e9-ceffa45e6f85</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>悠久 的 历史 灿烂 的 文化 去 追寻 历史 的 足迹 吧</td>\n",
       "      <td>69662e76-b0b9-301f-9a8b-68a386427486</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>这 地方 就 属于 来 多少 次 都 不会 腻 什么 时候 来 都 有 得 逛</td>\n",
       "      <td>fa9ec803-e857-32a2-b143-4f581ccecfec</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>可以 和 兵马俑 一起 玩 在 同一 方向 园子 还是 有点 大 的 风景 也 美 去 的 ...</td>\n",
       "      <td>48202159-a67f-392a-9073-4b2206e21660</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>以 小桥 流水 人家 细腻 柔软 精致 著称 的 苏州城 曾几何时 却 出现 了 一个 美丽...</td>\n",
       "      <td>1c24566a-cc0c-305d-ab4d-974694ba7c07</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>说实话 灵山 大佛 真的 不错 就是 游客 太多太多 了 不能 好好 感受</td>\n",
       "      <td>a2a325af-1a35-3c59-885f-c00f45019598</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>佛法无边</td>\n",
       "      <td>4af569f5-0242-3873-9708-235b447c3dcc</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>不去 遗憾 去 了 后悔</td>\n",
       "      <td>1983523f-92fe-3043-a19e-8f235b780166</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>太累 了 太远 了 没 啥意思 进门 看看 就行了 山里 啥 也 没有</td>\n",
       "      <td>ba43e914-116a-334b-a741-3a5d21631f78</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>差评 很差 很 差 太累 需要 休息 五天 山上 的 大衣 太湿</td>\n",
       "      <td>4c0746b5-fe8d-3e2c-9211-e44e099f8bf5</td>\n",
       "      <td>1.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>乐山 大佛 位于 四川省 乐山市 处于 南 岷江 大渡河 青衣江 和 岷江 三江 汇流处 门...</td>\n",
       "      <td>393d2581-5e76-3a7a-8ee1-615324d5ba3d</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>柯岩 风景区 很 美</td>\n",
       "      <td>751f3d86-80b2-3239-868b-a1d1d8ccab64</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>第一次 去 的 水洞 沟是 朋友 推荐 的 说 是 不错 去 看看 终于 得 了 个 空去 ...</td>\n",
       "      <td>9efe3039-3541-348b-a64a-4be6de31d2bb</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301906</th>\n",
       "      <td>景色 很 美 原谅 我 的 语言 苍白 池水 很清 可能 是 折射 也 可能 是 有 藻类 ...</td>\n",
       "      <td>f0de95d2-ef2b-3361-a6df-3f4392d74e93</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301907</th>\n",
       "      <td>人 好多 人 好多 人 好多 呀</td>\n",
       "      <td>d0a33ded-fed9-3d92-9c51-c6512d71a93d</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301908</th>\n",
       "      <td>1 西塘 管 老太 臭豆腐 这个 是 西塘 最 著名 的 小吃 了 山寨 冒牌 遍布...</td>\n",
       "      <td>b00cd736-093a-3d1e-b750-41283e37e09b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301909</th>\n",
       "      <td>798 艺术 中心 来 朝圣 了 到处 都 是 拍照 的 人 到处 都 是 奇装异服 到处 ...</td>\n",
       "      <td>8be4f87a-c76b-3e65-8ecc-a25f209824da</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301910</th>\n",
       "      <td>心诚则灵 很多 拜佛 的 地方 都 是 有 信仰 的 人才 去 的</td>\n",
       "      <td>9079f642-7458-3c6d-9098-c4877cc81347</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301911</th>\n",
       "      <td>十一月 初来 的 风 很大 但是 不 太冷 坐 滑车 来回 也 不错 长城 非常 壮观 有时...</td>\n",
       "      <td>f0d47b46-9391-3d0c-b068-8753e4edd583</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301912</th>\n",
       "      <td>总体 就是 一般般 吧 不会 特别 推荐</td>\n",
       "      <td>8e9afa16-33ae-3f51-8156-1e9e5337605c</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301913</th>\n",
       "      <td>大大的 雪场 绚丽多彩 的 冰灯</td>\n",
       "      <td>3a19d80a-1cdf-3616-9707-6f8a72b4513b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301914</th>\n",
       "      <td>这 是 个 代表性 的 建筑 代表性 的 地点</td>\n",
       "      <td>73081902-03a0-3f36-b562-900d6fd81f6c</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301915</th>\n",
       "      <td>坐地铁 直奔 王府井 因为 急 找 住 的 地方 把 背包 放下 就 没 溜达 王府井</td>\n",
       "      <td>7fed708a-e036-36cb-98a4-f8de9fbbf3db</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301916</th>\n",
       "      <td>西双版纳 热带 植物园 挺大 的 这里 很多 热带植物</td>\n",
       "      <td>cdb9eed1-54fb-3454-b98d-645c3bdfca78</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301917</th>\n",
       "      <td>从 上海 到 西塘 坐车 很 方便 票价 也 不贵 冬天 的 西塘 虽然 冷 但是 放 一盏...</td>\n",
       "      <td>0986165f-e9a5-394c-91d2-57149a4cad4b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301918</th>\n",
       "      <td>观音菩萨 的 道场 从来 都 没有 遭遇 过 台风 的 平静 之地 岛 还是 比较 大 的 ...</td>\n",
       "      <td>99aeecae-9a3b-337c-ad7b-ab82bbb499b4</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301919</th>\n",
       "      <td>西湖 美在 有 秀丽 的 自然风光 动人 的 传说 湖光山色 塔影 相映成趣 连 如织 的 ...</td>\n",
       "      <td>c0334558-d138-31cb-b714-0b6a320fa903</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301920</th>\n",
       "      <td>一点 都 不好玩</td>\n",
       "      <td>03f30d5a-9478-3701-b8e0-dec924ffe9a5</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301921</th>\n",
       "      <td>值得一看</td>\n",
       "      <td>a8c15edb-40a9-3014-a021-83d0d747f2d9</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301922</th>\n",
       "      <td>点评 有奖 第 14 季 青城山 风景 很 美 寺庙 建设 很 特别 但 景区 好多 没 开放</td>\n",
       "      <td>856aefdd-dc4c-36b2-a102-d9333b44186c</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301923</th>\n",
       "      <td>人山人海 太多人 了 特别 是 跟 团 的</td>\n",
       "      <td>179cf47c-4eb3-3c94-b097-52ab1844d67b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301924</th>\n",
       "      <td>预订 票 在 机器 上取 快捷 方便</td>\n",
       "      <td>c5e81b73-0412-3120-a94e-c14f3dc942ab</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301925</th>\n",
       "      <td>烟花 三月 下 扬州 到 了 瘦西湖 才 算是 到 了 扬州 算是 必 选项</td>\n",
       "      <td>803661ce-e446-32c6-a3f2-707e7d53891d</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301926</th>\n",
       "      <td>秋日 的 下午 来到 这里 游人 虽然 不少 但是 也 不算 特别 多 慢慢 走 慢慢 逛 ...</td>\n",
       "      <td>0c972f48-a836-3bdc-8dd5-fc4ac7d3385e</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301927</th>\n",
       "      <td>新晋 5a 级 国家 旅游 风景区 渤海 广场 乘 8 路 公交车 终点 即 是 票价 2 ...</td>\n",
       "      <td>927ed129-56ea-33fa-bcd3-f49527693fbb</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301928</th>\n",
       "      <td>很 不错 自己 爬上去 的 走走停停 认识 了 新 的 小伙伴</td>\n",
       "      <td>cda5d912-3bf9-382a-9b3a-5c08bc665360</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301929</th>\n",
       "      <td>有何 功德 烧香 的 人 是 人山人海</td>\n",
       "      <td>035184d7-2f13-32d2-8479-77532cdf6152</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301930</th>\n",
       "      <td>还 不错 不过 商业化 比较严重 啦</td>\n",
       "      <td>275498bc-12b3-3086-ab78-b7d0ea0da2e9</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301931</th>\n",
       "      <td>据说 这个 是 后来 建 的 没有 什么 历史 意义 登上 4 楼 就 累 的 不行 在 上...</td>\n",
       "      <td>b4f946fe-0deb-3f7a-a8ae-ff1446818ec0</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301932</th>\n",
       "      <td>颐和园 也 是 我 喜欢 的 北京 经典 景点 之一 它 长长的 回廊 万寿山 七孔 桥 和...</td>\n",
       "      <td>f030f2ed-1a39-32ff-a2dd-14fb757b2cb2</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301933</th>\n",
       "      <td>比较 小众 的 景点 但是 真心 很 美</td>\n",
       "      <td>647597a2-ec49-3f27-8924-363ddef52ca0</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301934</th>\n",
       "      <td>雨天 走走 景色宜人 可惜 体力 有限 走 了 一个 小时 不到 就 回去 了 没有 全部 ...</td>\n",
       "      <td>1cbc2b1b-c7a6-34d6-93ae-a7da9cd93d37</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>301935</th>\n",
       "      <td>160607 08 两日 路线 07 下午 天一 巷 骆驼峰 辣椒 峰 08 下午 北大 门...</td>\n",
       "      <td>b092aa49-4688-3c41-8aec-43c03186567f</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>301936 rows × 3 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                  Discuss  \\\n",
       "0                                    脏乱差 严重 堵车 垃圾 遍地 漫天要价   \n",
       "1       非常 差 在 景区 门口 刷不出 身份证 卖家 不 找 自身 的 问题 还 说 我们 当时 ...   \n",
       "2                                                    会 后悔   \n",
       "3                                 好好 好好 好好 好好 好好 好好 好好 好好   \n",
       "4       普达措 国家 公园 　 　 其实 第三段 可以 选择 坐船 或者 步行 的 这段 路程 并 ...   \n",
       "5       可 在 上面 拍拍 照 感觉 很 不错 还有 就是 菽庄花园 旁边 的 沙滩 也 不错 哦 ...   \n",
       "6                               玩 了 一个 白天 略 吵吵 囔囔 人 很多 无感   \n",
       "7                                                带 宝宝 出去玩   \n",
       "8        是 两个 90 度 垂直 的 竖梯 爬 上 山顶 的 岩石 高处 风光 独好 就是 注意安全 哦   \n",
       "9       当 雷峰塔 有 了 电梯 不伦不类 的 感觉 实在 是 让 人 感觉不好 完全 的 新 样式...   \n",
       "10                                   漫步 白堤 悠闲自得 真是 一处 好去处   \n",
       "11                            走 在 北京 的 老 胡同 了 才 是 真正 的 京味   \n",
       "12                          还 不错 的 地方 值得 一去 适合 旅游 不要 错过 哦   \n",
       "13                                                  真心 不错   \n",
       "14                                                   很 不错   \n",
       "15                          去 的 时候 碰上 云海 简直 就是 人间仙境 值得 一去   \n",
       "16      进去 之后 就是 感觉 吸氧 一样 空气 特 好 天特 蓝 还有 随处可见 的 肥 猴子 小...   \n",
       "17                                  拍摄 故宫 的 经典 位置 还是 不错 的   \n",
       "18                         悠久 的 历史 灿烂 的 文化 去 追寻 历史 的 足迹 吧   \n",
       "19                这 地方 就 属于 来 多少 次 都 不会 腻 什么 时候 来 都 有 得 逛   \n",
       "20      可以 和 兵马俑 一起 玩 在 同一 方向 园子 还是 有点 大 的 风景 也 美 去 的 ...   \n",
       "21      以 小桥 流水 人家 细腻 柔软 精致 著称 的 苏州城 曾几何时 却 出现 了 一个 美丽...   \n",
       "22                  说实话 灵山 大佛 真的 不错 就是 游客 太多太多 了 不能 好好 感受   \n",
       "23                                                   佛法无边   \n",
       "24                                           不去 遗憾 去 了 后悔   \n",
       "25                    太累 了 太远 了 没 啥意思 进门 看看 就行了 山里 啥 也 没有   \n",
       "26                       差评 很差 很 差 太累 需要 休息 五天 山上 的 大衣 太湿   \n",
       "27      乐山 大佛 位于 四川省 乐山市 处于 南 岷江 大渡河 青衣江 和 岷江 三江 汇流处 门...   \n",
       "28                                             柯岩 风景区 很 美   \n",
       "29      第一次 去 的 水洞 沟是 朋友 推荐 的 说 是 不错 去 看看 终于 得 了 个 空去 ...   \n",
       "...                                                   ...   \n",
       "301906  景色 很 美 原谅 我 的 语言 苍白 池水 很清 可能 是 折射 也 可能 是 有 藻类 ...   \n",
       "301907                                   人 好多 人 好多 人 好多 呀   \n",
       "301908  　 　 1 西塘 管 老太 臭豆腐 这个 是 西塘 最 著名 的 小吃 了 山寨 冒牌 遍布...   \n",
       "301909  798 艺术 中心 来 朝圣 了 到处 都 是 拍照 的 人 到处 都 是 奇装异服 到处 ...   \n",
       "301910                  心诚则灵 很多 拜佛 的 地方 都 是 有 信仰 的 人才 去 的   \n",
       "301911  十一月 初来 的 风 很大 但是 不 太冷 坐 滑车 来回 也 不错 长城 非常 壮观 有时...   \n",
       "301912                               总体 就是 一般般 吧 不会 特别 推荐   \n",
       "301913                                   大大的 雪场 绚丽多彩 的 冰灯   \n",
       "301914                            这 是 个 代表性 的 建筑 代表性 的 地点   \n",
       "301915        坐地铁 直奔 王府井 因为 急 找 住 的 地方 把 背包 放下 就 没 溜达 王府井   \n",
       "301916                        西双版纳 热带 植物园 挺大 的 这里 很多 热带植物   \n",
       "301917  从 上海 到 西塘 坐车 很 方便 票价 也 不贵 冬天 的 西塘 虽然 冷 但是 放 一盏...   \n",
       "301918  观音菩萨 的 道场 从来 都 没有 遭遇 过 台风 的 平静 之地 岛 还是 比较 大 的 ...   \n",
       "301919  西湖 美在 有 秀丽 的 自然风光 动人 的 传说 湖光山色 塔影 相映成趣 连 如织 的 ...   \n",
       "301920                                           一点 都 不好玩   \n",
       "301921                                               值得一看   \n",
       "301922    点评 有奖 第 14 季 青城山 风景 很 美 寺庙 建设 很 特别 但 景区 好多 没 开放   \n",
       "301923                              人山人海 太多人 了 特别 是 跟 团 的   \n",
       "301924                                 预订 票 在 机器 上取 快捷 方便   \n",
       "301925             烟花 三月 下 扬州 到 了 瘦西湖 才 算是 到 了 扬州 算是 必 选项   \n",
       "301926  秋日 的 下午 来到 这里 游人 虽然 不少 但是 也 不算 特别 多 慢慢 走 慢慢 逛 ...   \n",
       "301927  新晋 5a 级 国家 旅游 风景区 渤海 广场 乘 8 路 公交车 终点 即 是 票价 2 ...   \n",
       "301928                    很 不错 自己 爬上去 的 走走停停 认识 了 新 的 小伙伴   \n",
       "301929                                有何 功德 烧香 的 人 是 人山人海   \n",
       "301930                                 还 不错 不过 商业化 比较严重 啦   \n",
       "301931  据说 这个 是 后来 建 的 没有 什么 历史 意义 登上 4 楼 就 累 的 不行 在 上...   \n",
       "301932  颐和园 也 是 我 喜欢 的 北京 经典 景点 之一 它 长长的 回廊 万寿山 七孔 桥 和...   \n",
       "301933                               比较 小众 的 景点 但是 真心 很 美   \n",
       "301934  雨天 走走 景色宜人 可惜 体力 有限 走 了 一个 小时 不到 就 回去 了 没有 全部 ...   \n",
       "301935  160607 08 两日 路线 07 下午 天一 巷 骆驼峰 辣椒 峰 08 下午 北大 门...   \n",
       "\n",
       "                                          Id  Score  \n",
       "0       2c767dd0-8536-38c6-a41e-2f70a4a64923    1.0  \n",
       "1       b6ff2819-b97a-3d5c-9b93-5efc234a574d    1.0  \n",
       "2       7ed145e9-4c85-323e-8d26-c4cd18105d26    1.0  \n",
       "3       493a99b7-f80c-30c9-876c-d9db174d9688    5.0  \n",
       "4       80567e00-dc5a-3426-8149-342dccd8b93e    4.0  \n",
       "5       9808082d-9a62-36ac-a6d1-56387d428b84    4.0  \n",
       "6       b626d8e8-9d6c-35af-89c8-12c75ebe910b    3.0  \n",
       "7       420ddfbb-4439-3b59-a5f5-845ef8df0f95    5.0  \n",
       "8       f6271d92-fe80-3884-9123-6db6eb64a739    4.0  \n",
       "9       6c87907a-89e1-353d-bdf6-72c13af0221c    2.0  \n",
       "10      e86caac1-dc58-34a3-8bfa-b099c57937c3    4.0  \n",
       "11      418b19cb-3ad3-36bc-875f-f22ffa1a86cc    4.0  \n",
       "12      00855029-ef19-3aff-bbd1-b0f2d311a116    4.0  \n",
       "13      4ee54b69-15c2-3152-903b-4e8e56edd86f    5.0  \n",
       "14      21ab5fca-8427-3fbd-abbd-3568a9407409    4.0  \n",
       "15      67bf89fc-6123-3e57-b041-c1ebeb91ae36    5.0  \n",
       "16      7e5e53fc-7e9c-38ed-b878-13b6157e592c    4.0  \n",
       "17      949cc770-2449-3593-a6e9-ceffa45e6f85    4.0  \n",
       "18      69662e76-b0b9-301f-9a8b-68a386427486    4.0  \n",
       "19      fa9ec803-e857-32a2-b143-4f581ccecfec    5.0  \n",
       "20      48202159-a67f-392a-9073-4b2206e21660    5.0  \n",
       "21      1c24566a-cc0c-305d-ab4d-974694ba7c07    5.0  \n",
       "22      a2a325af-1a35-3c59-885f-c00f45019598    4.0  \n",
       "23      4af569f5-0242-3873-9708-235b447c3dcc    5.0  \n",
       "24      1983523f-92fe-3043-a19e-8f235b780166    5.0  \n",
       "25      ba43e914-116a-334b-a741-3a5d21631f78    5.0  \n",
       "26      4c0746b5-fe8d-3e2c-9211-e44e099f8bf5    1.0  \n",
       "27      393d2581-5e76-3a7a-8ee1-615324d5ba3d    5.0  \n",
       "28      751f3d86-80b2-3239-868b-a1d1d8ccab64    5.0  \n",
       "29      9efe3039-3541-348b-a64a-4be6de31d2bb    5.0  \n",
       "...                                      ...    ...  \n",
       "301906  f0de95d2-ef2b-3361-a6df-3f4392d74e93    NaN  \n",
       "301907  d0a33ded-fed9-3d92-9c51-c6512d71a93d    NaN  \n",
       "301908  b00cd736-093a-3d1e-b750-41283e37e09b    NaN  \n",
       "301909  8be4f87a-c76b-3e65-8ecc-a25f209824da    NaN  \n",
       "301910  9079f642-7458-3c6d-9098-c4877cc81347    NaN  \n",
       "301911  f0d47b46-9391-3d0c-b068-8753e4edd583    NaN  \n",
       "301912  8e9afa16-33ae-3f51-8156-1e9e5337605c    NaN  \n",
       "301913  3a19d80a-1cdf-3616-9707-6f8a72b4513b    NaN  \n",
       "301914  73081902-03a0-3f36-b562-900d6fd81f6c    NaN  \n",
       "301915  7fed708a-e036-36cb-98a4-f8de9fbbf3db    NaN  \n",
       "301916  cdb9eed1-54fb-3454-b98d-645c3bdfca78    NaN  \n",
       "301917  0986165f-e9a5-394c-91d2-57149a4cad4b    NaN  \n",
       "301918  99aeecae-9a3b-337c-ad7b-ab82bbb499b4    NaN  \n",
       "301919  c0334558-d138-31cb-b714-0b6a320fa903    NaN  \n",
       "301920  03f30d5a-9478-3701-b8e0-dec924ffe9a5    NaN  \n",
       "301921  a8c15edb-40a9-3014-a021-83d0d747f2d9    NaN  \n",
       "301922  856aefdd-dc4c-36b2-a102-d9333b44186c    NaN  \n",
       "301923  179cf47c-4eb3-3c94-b097-52ab1844d67b    NaN  \n",
       "301924  c5e81b73-0412-3120-a94e-c14f3dc942ab    NaN  \n",
       "301925  803661ce-e446-32c6-a3f2-707e7d53891d    NaN  \n",
       "301926  0c972f48-a836-3bdc-8dd5-fc4ac7d3385e    NaN  \n",
       "301927  927ed129-56ea-33fa-bcd3-f49527693fbb    NaN  \n",
       "301928  cda5d912-3bf9-382a-9b3a-5c08bc665360    NaN  \n",
       "301929  035184d7-2f13-32d2-8479-77532cdf6152    NaN  \n",
       "301930  275498bc-12b3-3086-ab78-b7d0ea0da2e9    NaN  \n",
       "301931  b4f946fe-0deb-3f7a-a8ae-ff1446818ec0    NaN  \n",
       "301932  f030f2ed-1a39-32ff-a2dd-14fb757b2cb2    NaN  \n",
       "301933  647597a2-ec49-3f27-8924-363ddef52ca0    NaN  \n",
       "301934  1cbc2b1b-c7a6-34d6-93ae-a7da9cd93d37    NaN  \n",
       "301935  b092aa49-4688-3c41-8aec-43c03186567f    NaN  \n",
       "\n",
       "[301936 rows x 3 columns]"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_train_processed"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 保存预处理后的数据集\n",
    "df_train_processed.to_csv(CACHE_PATH + 'train_processed_all.csv',index=False)\n",
    "df_predict_processed.to_csv(CACHE_PATH+ 'predict_processed_all.csv',index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
